AI012

대규모 언어 모델의 심층 분석

자율 에이전트, RLHF 및 안전성 일치

수업

수업 8

강사

AI 튜터

분석하기GUI 에이전트의 아키텍처 구성 요소를 분석하며, 다중 에이전트 시스템 내에서 계획, 의사결정 및 반성 모듈을 포함하여 설명합니다.
설명하기강화학습(RL)과 인간 피드백 기반 강화학습(RLHF)의 작동 원리를 설명하며, 보상 모델과 PPO가 에이전트 행동을 인간의 가치와 일치시키는 데 수행하는 역할을 구체적으로 다룹니다.
평가하기자율 에이전트의 안전성 위험과 신뢰성 문제를 평가하며, 분포 외 오류(OOD), 해킹 공격, 환경적 방해 요인 등을 포함합니다.